https://docs.python.org/3/library/urllib.htmlurllib
是一个python内置的HTTP请求库,包括:
urllib.request
用于打开和读取URLurllib.error
包含由urllib.request
抛出的异常urllib.parse
用于解析URLurllib.robotparser
用于解析robots.txt
文件
快速获取一个静态页面的HTML文档
1 | import urllib.request |
设置超时
1 | import urllib.request |
简单使用request
1 | import urllib.request |
添加请求头部信息
1 | import urllib.request |
GET数据
字符串拼接时无需转码
1 | import urllib.request |
POST数据
post数据必须转换成字节编码
1 | import urllib.parse |
捕获HTTP错误
1 | import urllib.request |
使用代理服务器
1 | import urllib.request |
使用cookie
爬取的网页涉及登录信息。访问每一个互联网页面,都是通过HTTP
协议进行的,而HTTP
协议是一个无状态协议,所谓的无状态协议即无法维持会话之间的状态。
1 | # 待修改 |